热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

神龙|体量_阿里云+作业帮+小红书:论剑云原生时代的SRE与智能运维

篇首语:本文由编程笔记#小编为大家整理,主要介绍了阿里云+作业帮+小红书:论剑云原生时代的SRE与智能运维相关的知识,希望对你有一定的参考价值。出品|CSDN云原生

篇首语:本文由编程笔记#小编为大家整理,主要介绍了阿里云+作业帮+小红书:论剑云原生时代的 SRE与智能运维相关的知识,希望对你有一定的参考价值。


出品 | CSDN云原生

2022年4月12日,CSDN云原生系列在线峰会第1期“SRE与智能运维峰会”如期而至,本期峰会出品人、阿里云神龙计算平台稳定性负责人郑旭东(鹿棠)携手作业帮运维负责人聂安、小红书SRE业务运维组负责人陈鹏、阿里云高级技术专家周宇(屠虎),带来了一场云原生时代里,SRE与智能运维的前瞻观察和实践分享盛宴。 完整版直播回放请戳>>链接观看

下面先简单回顾本期峰会的内容。演讲视频、完整文章将从4月13日起在 CSDN云原生 微信公众号陆续发布,敬请关注。



SRE与智能运维的机遇和挑战

SRE全称Site Reliability Engineer,也就是网站可靠性工程师,其职责主要体现在交付、日常运维、容量管理三个方面。阿里云神龙计算平台稳定性负责人郑旭东(鹿棠)在开场分享中,将其发展归纳为五个阶段:


  • 纯手工:单兵作战,突出个人能力

  • 标准化:文档化、规范化、流程化

  • 平台化:可视化、自动化

  • DevOps:突破组织边界

  • 智能化:云原生、AI

在智能化时代,一方面,SRE团队面临着Everything is code,物理设施逐步被屏蔽,多云资源带来管理复杂性等挑战;另一方面,K8s让Infrastructure as Code成为可能,为SRE的工作带来无限的想象空间。



作业帮的运维转型

作业帮运维负责人聂安在回顾互联网运维发展史、作业帮运维转型和探索历程的基础上,将作业帮的经验总结为五条。


  • 传统运维职责是将工业制成品组装成服务、交付给用户,并维持服务运转;特点是强依附于业务。

  • 云原生时代,公有云大量使用、DevOps真实达成,传统运维的职责不断被外包、转移、替代,出现了领域危机。

  • 运维转型,核心是提升角色认知。运维人,要把自己从依附的运营角色、调整为独立的运维服务提供方,运维即服务OPaS。

  • 作业帮做了一些转型实践,比如CloudOps借助洋葱模型转型为云服务提供商,SRE全力拓展超服务视角。

  • 对于运维来说,平台是服务能力最有力的承接方式,但平台不是唯一方式。组织、规范、流程、平台,一样都不能少。



小红书的跨云多活能力建设

作为一个社交媒体和电子商务平台,小红书被誉为“中国的Instagram”,近年来发展迅猛,已经到了一个比较大的体量,这对其技术架构提出了较大挑战。因此,为了满足业务增长、技术架构迭代、容灾要求等方面的需求,小红书开启了跨云多活能力的建设。

作为小红书SRE业务运维组负责人,陈鹏从多活筹备(服务梳理、可行性验证、技术招标)、多活建设(东西向流量调度改造、南北向流量调度改造、业务改造)、多活治理(预案建设、容量管理、巡检)三个阶段进行了全面分享,并提出多活DB数据同步终极方案:shardmanager。 



阿里云神龙计算平台智能运维体系建设

神龙计算平台是一个百万级客户基础设施稳定性保障平台。阿里云在神龙计算平台基础上构建了一套智能运维平台,实现了数据采集、智能诊断、自动化运维、故障恢复等方面能力。

阿里云高级技术专家、神龙计算平台异常调度平台负责人周宇(屠虎)分享了阿里云是如何设计和建设这套体系,以及如何解决建设过程中遇到的技术难点。


  • 问题和痛点=为什么要做建设这套智能诊断体系。

  • 同类型智能化智能诊断运维产品调研与分析。

  • 智能运维体系设计与实现,包括采集、诊断服务、算法支撑、自动化运维、故障快恢等核心组件设计思路,以及庞大体量背后,研发团队如何解决带来的问题。



聚焦云原生新技术、新实践,帮助开发者群体赢在开发范式转移的新时代。欢迎关注 CSDN云原生 微信公众号~


推荐阅读
  • 对于众多创业公司而言,选择小程序或小视频的发展方向至关重要。本文将深入分析小程序和小视频的特点、优势及局限,帮助创业者做出更明智的选择。 ... [详细]
  • 本文详细介绍了Java代码分层的基本概念和常见分层模式,特别是MVC模式。同时探讨了不同项目需求下的分层策略,帮助读者更好地理解和应用Java分层思想。 ... [详细]
  • 近期,微信公众平台上的HTML5游戏引起了广泛讨论,预示着HTML5游戏将迎来新的发展机遇。磊友科技的赵霏,作为一名HTML5技术的倡导者,分享了他在微信平台上开发HTML5游戏的经验和见解。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 微信小程序详解:概念、功能与优势
    微信公众平台近期向200位开发者发送了小程序的内测邀请。许多人对微信小程序的概念还不是很清楚。本文将详细介绍微信小程序的定义、功能及其独特优势。 ... [详细]
  • 深入解析 Lifecycle 的实现原理
    本文将详细介绍 Android Jetpack 中 Lifecycle 组件的实现原理,帮助开发者更好地理解和使用 Lifecycle,避免常见的内存泄漏问题。 ... [详细]
  • 在2019中国国际智能产业博览会上,百度董事长兼CEO李彦宏强调,人工智能应务实推进其在各行业的应用。随后,在“ABC SUMMIT 2019百度云智峰会”上,百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]
  • MySQL的查询执行流程涉及多个关键组件,包括连接器、查询缓存、分析器和优化器。在服务层,连接器负责建立与客户端的连接,查询缓存用于存储和检索常用查询结果,以提高性能。分析器则解析SQL语句,生成语法树,而优化器负责选择最优的查询执行计划。这一流程确保了MySQL能够高效地处理各种复杂的查询请求。 ... [详细]
  • 浏览器作为我们日常不可或缺的软件工具,其背后的运作机制却鲜为人知。本文将深入探讨浏览器内核及其版本的演变历程,帮助读者更好地理解这一关键技术组件,揭示其内部运作的奥秘。 ... [详细]
  • 提升 Kubernetes 集群管理效率的七大专业工具
    Kubernetes 在云原生环境中的应用日益广泛,然而集群管理的复杂性也随之增加。为了提高管理效率,本文推荐了七款专业工具,这些工具不仅能够简化日常操作,还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查,这些工具覆盖了集群管理的各个方面,帮助管理员更好地应对挑战。 ... [详细]
  • 从运维繁忙到屡获殊荣:一位CIO的辉煌转型之路
    企业首席信息官(CIO)常常面临一个棘手的问题:如何有效推动公司的数字化转型?尽管数字化转型已成为企业未来发展的重要共识,但如何具体实施依然是许多CIO面临的重大挑战。在日常运营中,企业需要处理大量的业务问题和制定各种发展规划,这使得数字化转型往往被排在较低的优先级。此外,不断涌现的新问题和新规划也常常打乱原有的计划,进一步增加了转型的难度。 ... [详细]
  • 老杨谈IT运维 | 快速实现日志异常检测与根源分析
    在智能运维领域,指标和日志是最常用的数据来源,能够有效反映系统的运行状况和健康状态。通过对这些数据的深入分析,可以为监控和告警系统提供关键信息,帮助快速实现日志异常检测与根源分析,提升整体运维效率。 ... [详细]
  • 解读中台架构:微服务与分布式技术的区别及应用
    中心化与去中心化是长期讨论的话题。中心化架构的优势在于部署和维护相对简单,尤其在服务负载较为稳定的情况下,能够提供高效稳定的性能。然而,随着业务规模的扩大和技术需求的多样化,中心化架构的局限性逐渐显现,如扩展性和故障恢复能力较差。相比之下,微服务和分布式技术通过解耦系统组件,提高了系统的灵活性和可扩展性,更适合处理复杂多变的业务场景。本文将深入探讨中台架构中微服务与分布式技术的区别及其应用场景,帮助读者更好地理解和选择适合自身业务的技术方案。 ... [详细]
  • 如何在Oracle ASM_Diskgroup中重命名现有磁盘
    如何在Oracle ASM_Diskgroup中重命名现有磁盘 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
author-avatar
寻找4s_666
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有